Analise de Qualidade de Vinhos Tintos

Introdução ao Dataset

Este dataset possui 1599 observações sobre a qualidade de vinho tinto divididas em 13 variáveis. Como mostrado abaixo:

str(redwine)
## 'data.frame':    1599 obs. of  13 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : int  5 5 5 6 5 5 5 7 7 5 ...

Sumário inicial e nome das variáveis

Abaixo segue os nomes das variáveis e um sumário geral do dataset:

names(redwine)
##  [1] "X"                    "fixed.acidity"        "volatile.acidity"    
##  [4] "citric.acid"          "residual.sugar"       "chlorides"           
##  [7] "free.sulfur.dioxide"  "total.sulfur.dioxide" "density"             
## [10] "pH"                   "sulphates"            "alcohol"             
## [13] "quality"
summary(redwine)
##        X          fixed.acidity   volatile.acidity  citric.acid   
##  Min.   :   1.0   Min.   : 4.60   Min.   :0.1200   Min.   :0.000  
##  1st Qu.: 400.5   1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090  
##  Median : 800.0   Median : 7.90   Median :0.5200   Median :0.260  
##  Mean   : 800.0   Mean   : 8.32   Mean   :0.5278   Mean   :0.271  
##  3rd Qu.:1199.5   3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420  
##  Max.   :1599.0   Max.   :15.90   Max.   :1.5800   Max.   :1.000  
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.900   Min.   :0.01200   Min.   : 1.00      
##  1st Qu.: 1.900   1st Qu.:0.07000   1st Qu.: 7.00      
##  Median : 2.200   Median :0.07900   Median :14.00      
##  Mean   : 2.539   Mean   :0.08747   Mean   :15.87      
##  3rd Qu.: 2.600   3rd Qu.:0.09000   3rd Qu.:21.00      
##  Max.   :15.500   Max.   :0.61100   Max.   :72.00      
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  6.00       Min.   :0.9901   Min.   :2.740   Min.   :0.3300  
##  1st Qu.: 22.00       1st Qu.:0.9956   1st Qu.:3.210   1st Qu.:0.5500  
##  Median : 38.00       Median :0.9968   Median :3.310   Median :0.6200  
##  Mean   : 46.47       Mean   :0.9967   Mean   :3.311   Mean   :0.6581  
##  3rd Qu.: 62.00       3rd Qu.:0.9978   3rd Qu.:3.400   3rd Qu.:0.7300  
##  Max.   :289.00       Max.   :1.0037   Max.   :4.010   Max.   :2.0000  
##     alcohol         quality     
##  Min.   : 8.40   Min.   :3.000  
##  1st Qu.: 9.50   1st Qu.:5.000  
##  Median :10.20   Median :6.000  
##  Mean   :10.42   Mean   :5.636  
##  3rd Qu.:11.10   3rd Qu.:6.000  
##  Max.   :14.90   Max.   :8.000

Gráficos de Uma Variável

Uma das variáveis mais importantes aqui é a qualidade do vinho:

## Warning: Ignoring unknown parameters: binwidth, bins, pad

A qualidade dos vinhos, como mostrado acima, se apresenta como uma distribuição normal, tendo a grande maioria dos vinhos classificados como medianos.

Aqui podemos ver que os vinhos neste dataset possuem em média 7g / dm^3 e temos poucos outliers.

A média de acidez volátil é de 0.5g / dm^3 o que mostra que a grande maioria dos vinhos neste dataset não são tão ácidos. A volatilidade acética indica a quantidade de ácido acético no vinho que é responsável pelo sabor de vinagre quando muito alta.

summary(redwine$citric.acid)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.090   0.260   0.271   0.420   1.000

Este gráfico mostra que existe uma grande quantidade de vinhos com pouco o quase nada de ácido cítrico. Mas podemos dizer que a média está em 0.26g / dm^3. A acidez cítrica é reponsável pela sensação de frescor e sabor ao vinho.

Açúcar Residual é a quantidade de açúcar que sobra depois da fermentação. Este é gráfico é fortemente enviesado com uma cauda longa e alguns outliers.

Mas o quão distante e quantos seriam esses outliers? É mais fácil ver no gráfico abaixo.

Cloreto de sódio é a quantidade de sódio no vinho. A distribuição é enviesado e existem alguns outliers. Geralmente vinhos bons possuem pouco sódio.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
## 0.01200 0.07000 0.07900 0.08747 0.09000 0.61100

Como pode ser visto a média é 0.07 g /dm^3. Mas existem alguns outliers the tornam a quantidade máxima em 0.6 g /dm^3.

Este gráfico é enviesado positivamente o que demonstra que a maioria dos vinhos possuem pouco dióxido de enxofre. Este composto existe em equilíbrio com moléculas SO2 e íons de Bisulfito. Ele previne o crescimento de micróbios e a oxidação do vinho.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    7.00   14.00   15.87   21.00   72.00

A média de dióxido de enxofre livre é de 15.87 mg / dm^3 mas existem alguns outliers que fazem a máxima chegar à 72 mg / dm^3.

Aqui temos um gráfico fortemente enviesado positivamente, bem similar ao anterior. O Total de dióxido de enxofre é a soma do dióxido de enxofre livre e o dióxido de enxofre ligado. Existem dois outliers neste dataset.

A densidade da água no vinho segue uma distribuição normal. É uma das poucas features que seguem uma distribuição nesse tipo.

Aqui temos o pH. O pH descreve o quão ácido o vinho é numa escala de 0 à 14. Sendo 0 muito ácido e 14 muito básico (o inverso de muito ácido). Esse gráfico mostra que a acidez acompanha uma distribuição normal tendo a grande maioria dos vinhos uma média 3.3 de acidez. Como mostra o sumário abaixo.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   2.740   3.210   3.310   3.311   3.400   4.010

Sulfatos agem como anti-microbacterianos e antioxidantes. Este gráfico revela que a grande maioria dos vinhos possui algo entre 0.5 e 0.8 g / dm^3. O gráfico positivamente enviesado. E temos também alguns outliers como mostra o gráfico abaixo.

Mais um gráfico positivamente enviesado, mostrando que existem mais vinhos com uma baixa dose de alcool do que o contrário. A média é: 10.2%

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    8.40    9.50   10.20   10.42   11.10   14.90

Sobre o dataset

Existem 1599 observações e 13 variáveis Interessante que fora pH e densidade que tem uma distribuição normal, as outras variáveis possuem um gráfico enviesado positivamente.

Feature que são interessantes

O pH, a acidez volátil e fixa, o álcool, a densidate e os sulfatos parecem ser bem interessantes e merecem uma exploração melhor.

Plots com duas variáveis e algumas análises

Será que o PH influencia na qualidade dos vinhos?

O pH descreve o quão ácido o vinho é. Aqui podemos ver que não existe uma boa correlação entre essas variáveis já que existem vinhos com qualidade 6 com pH alto e com pH baixo. Essa variável está logo descartada, mesmo sendo observada uma pequena queda de pH para vinhos de maior qualidade ela não é tão forte assim.

O álcool é muito importante na composição dos vinhos, mas quanto ele importa com relação à qualidade?

É muito interessante notar aqui que a partir da qualidade 5, ou seja, partindo dos vinhos medianos em diante a qualidade está bem relacionada a quantidade de álcool. A correlação não é forte já que a grande maioria dos vinhos fica na média de 5 ou 6 mas podemos ver que quanto maior a qualidade do vinho, maior é a quantidade de álcool.

E a ácidez, será que interfere na qualidade? Será que vinhos bons são mais ou menos ácidos?

Interessante notar que quanto menor a quantidade de ácidez, melhor o vinho. De acordo com uma pesquisa feita em sites especializados em vinho, a volatilidade da acidez é o que faz um bom vinho. A quantidade correta de acidez deixa o vinho mais fresco, dá forma e sabor, enfim, é a alma do vinho. Um vinho bom tem a quantidade certa de acidez e isso pode ser visto através do gráfico acima. Apararentemente uma média de 0.4g/dm^3 é o ideal, e os melhores vinhos parecem estar entre 0.3 e 0.5g/dm^3

Este gráfico não pôde render uma explicação satisfatória. É possível observar que a ácidez aumenta um determinado momento mas volta a cair quando chegamos aos vinhos de maior qualidade.

Aqui eu quis entender se a densidade de água continha alguma correlação com o álcool. Vemos pelo gráfico que quanto mais água, menos a porcentagem de álcool. O que faz total sentido já que em 1 litro de vinho quanto menos álcool tivermos mais água. Porém esse dado deve ser analisado como foi feito agora, já que poderiamos ter outros compostos adicionados o que não aumentaria a densidade da água.

Secção de Gráficos Multi variáveis

Nós vimos antes que quando maior o álcool, menor a densidade. E neste gráfico nós conseguimos notar que quanto mais denso maior a ácidez .

O que realmente interessa para nós? Até agora estamos buscando entender quais fatores são mais importantes para a qualidade do vinho.

Neste gráfico conseguimos entender que vinhos bons, geralmente possuem uma baixa densidade de água e um teor alcoólico maior. O que podemos perceber nesse gráfico é que a inclinação das retas para vinhos de baixa qualidade é menos íngreme e tendem para a esquerda enquanto vinhos de maior qualidade tem uma reta mais íngreme e tendem mais para a direita.


Sumário

Gráfico 1

Descrição

Quanto maior a densidade do vinho, maior é a sua ácidez. Existe uma correlação maior entre os ácidos (ácido fixo e o ácido cítrico). Ácido cítrico existe em apenas pequenas quantidades no vinho. É possível perceber que quanto menor a densidade e a acidez fixa, menor também será a ácidez cítrica o que torna o vinho com menos frescor e sabor.

Gráfico 2

Descrição

Não poderia faltar o gráfico que mostra a distribuição da qualidade de vinhos que por sinal é uma distribuição normal. É de se esperar, que como quase tudo nesta vida, tenhamos uma maior quantidade de vinhos medianos que não são nem muito bons nem muito ruins e alguns poucos vinhos se destacando mas nenhum atingindo a qualidade máxima.

Gráfico 3

Descrição

Quanto mais densidade de água, menor a quantidade de álcool o que corresponde à um vinho de menor qualidade. Temos um ou outro outlier, o que prova que toda regra tem sua exceção, mas em geral a densidade X álcool afeta a qualidade do vinho. Neste gráfico conseguimos ver as regressões lineares para cada qualidade e podemos notar que para qualidades menores a linha é menos íngreme e para qualidade maiores a linha tende mais à direita e é um pouco mais íngreme. Vinhos mais fracos possuem uma grande densidade de água e pouco álcool. O inverso acontece com vinhos de maior qualidade.


Reflexão Final

Este dataset se mostrou complicado de se trabalhar porque ele possui muitos vinhos categorizados com qualidade entre 4 e 6, estando sua grande maior na média como mostrou o gráfico de qualidade de vinho com sua distribuição normal. Poderíamos ter extraído ou entendido melhor algumas informações se tivéssemos mais vinhos categorizados como muito ruins ou muito bons.

Ao explorar o dataset as relações que se mostraram mais interessantes foram entre a densidade e o álcool, a densidade, álcool e ácidez e a ácidez fixa, cítrica e densidade. Já sabia por algumas leituras que a ácidez cítrica influênciava no sabor do vinho, mas não imaginava que a quantidade de álcool X densidade seria tão importante para categorizar a qualidade de um vinho.

Foram explorados todas a variáveis, alguns com sumários e gráficos em box plot para entendermos melhor se havia e onde estavam os outliers e podemos perceber que a grande maioria das substancias seguem um enviesamento positivo o que significa que a grande maioria dos vinhos possui essas substancias em baixa quantidade.

Posso concluir que estou satisfeito com o levantamento de informações e dizer que agora entendo um pouco mais sobre o que difere um vinho bom de um vinho ruim.